尽管自1970年代以来就已经知道,普通付款游戏中的全球最佳策略概况是纳什均衡,但全球最优性是严格的要求,它限制了结果的适用性。在这项工作中,我们表明任何本地最佳的对称策略概况也是(全局)NASH平衡。此外,我们证明了这一结果对通用收益和本地最佳的扰动是可靠的。应用于机器学习,我们的结果为任何梯度方法提供了全球保证,该方法在对称策略空间中找到了局部最佳。尽管该结果表明单方面偏差的稳定性,但我们仍然确定了广泛的游戏类别,这些游戏混合了当地的最佳选择,在不对称的偏差下是不稳定的。我们通过在一系列对称游戏中运行学习算法来分析不稳定性的普遍性,并通过讨论结果对多代理RL,合作逆RL和分散的POMDP的适用性来得出结论。
translated by 谷歌翻译